#NVIDIA GPU
算力寡頭的崛起:AI 基礎設施秩序
在 2025 年的科技敘事裡,“算力” 幾乎取代了 “模型”,成為新的關鍵詞。訓練資料與演算法創新仍在持續,但決定一家企業能否進入下一階段競爭的,不再是研究突破,而是能否獲得足夠的 GPU。在 a16z(Andreessen Horowitz)的視角中,這種轉變並非短期現象,而是一場基礎設施權力的重組。當算力成為 AI 產業的硬通貨,整個技術堆疊的價值開始從上層應用,回流到最底層的資源控制:晶片製造、雲調度、電力供給、資本密度,統統成為新的戰略要地。正如 a16z 合夥人 Martin Casado 所說:“當創新成本由演算法轉向硬體與能源,競爭就從工程能力轉向資本結構。”Dylan Patel 在 a16z 播客《GPT-5、NVIDIA、Intel》中形容輝達投資英特爾,是 “一種縱向自我保護”;Casado 則進一步指出,一個新的 “算力寡頭秩序” 正在成形 ——少數同時掌握計算、模型與能源分配權的公司,將定義未來 AI 的速度上限。本篇筆記試圖透過 a16z 近三個月(7–9 月)播客中幾位核心合夥人的公開討論,觀察他們如何理解這場從技術到資本的結構性遷移。從晶片到雲,再到資本,我們正見證一個新世界的建立:程式碼仍在寫,但計算的 “權” 與 “能”,正悄然集中。|註: a16z(Andreessen Horowitz)是一家總部位於矽谷的風險投資機構,由 Marc Andreessen 與 Ben Horowitz 創立。它以長期投資技術底層架構聞名,其 Podcast 常被視為矽谷未來趨勢的 “思想窗口”。01|晶片層:a16z 眼中的 “能源秩序”在 a16z 與行業專家的播客討論中,晶片層始終被視為 AI 產業重構的起點。在 《Dylan Patel: GPT-5, NVIDIA, Intel》 一集中,Patel 與 a16z 的 Erin Price-Wright、Guido Appenzeller 共同討論了一個核心問題:“為什麼 ‘複製 NVIDIA’ 幾乎不可能?”(1)複製 NVIDIA:困難不在晶片,而在系統協同Patel 指出:即使你能造出與 NVIDIA 性能接近的 GPU,也很難複製其系統性效率。這背後的瓶頸不在電晶體,而在協同層:包括節點工藝、HBM 記憶體頻寬、網路互連、能耗管理、熱設計等。每一處邊緣差距都會在規模化叢集中被放大為成本和性能損耗。他稱這種現象為 “系統性摩擦(Systemic Friction)”,並提醒聽眾:“晶片不是一塊矽片,而是一整條產業管線。”a16z 在這段對話中延伸出一個關鍵判斷:硬體競爭的本質,是供應鏈與系統架構的耦合能力。因此,要複製 NVIDIA,不只是抄硬體,而是重建一整套協同基礎設施。(2)NVIDIA 投資 Intel:產業風險下的戰略重構2025 年 7 月,NVIDIA 宣佈向 Intel 投資 50 億美元 —— 表面看是競爭者之間的罕見合作,但在 Patel 的分析中,這一行為本質上是一種戰略保險。他從兩條路徑解讀:1. 供應鏈保險(Supply Chain Hedge):在 GPU 供應緊張、HBM 記憶體受限的環境下,NVIDIA 需要確保 CPU / 封裝 / 製造等環節的穩定性。通過繫結 Intel,可以強化異構協同和製造冗餘。2. 政策避險(Policy Hedge):在出口管制、反壟斷監管高壓下,這種 “友敵式投資” 能緩解政治與產業層的摩擦。a16z 的主持人 Appenzeller 在節目中評論:“這不是一筆財務投資,而是結構性博弈。它重新定義了什麼叫 ‘產業聯盟’。”在 a16z 的語境下,這意味著:算力寡頭之間不再是零和關係,而是權力結構的互鎖。(3)算力即能源:物理極限與地理壁壘Patel 在同一播客中強調:“算力消耗的不是矽,而是電。”一個 10 萬張 GPU 的資料中心,其最大瓶頸往往不是晶片,而是電網容量與冷卻效率。他指出,美國新建的 AI 資料中心多集中在德州、俄勒岡、弗吉尼亞等電價低、氣候冷的地區,而非舊金山或紐約這樣的科技中心。a16z 將這種現象定義為 “能源可得性壁壘(Energy Accessibility Barrier)”:當算力與電力繫結後,能源供應本身就成為競爭力的一部分。Patel 的結論極具警示性:“資料中心的選址差異,正在決定全球 AI 的速度差。”在 a16z 的視角中,這正是未來 “算力秩序” 的雛形:技術進步最終被物理條件重新約束,而能源效率成為新的護城河。02|雲層:a16z 眼中的 “算力入口”如果說晶片層定義了誰能製造算力,那麼雲層則決定了誰能分配算力。a16z 合夥人 Jennifer Li 在 8 月的播客 《The AI Infrastructure Stack》 中指出:“AI 的底層設施,正在從硬體棧轉向調度棧。真正的控制點,不是晶片,而是調度系統。”這句話,是 a16z 理解 “AI 基礎設施秩序” 的轉折點。(1)算力的抽象化:從晶片到服務Jennifer Li 在那期播客中,系統地拆解了 AI 技術堆疊的演進路徑:從模型到推理,再到資料與調度,每一層都在被重新封裝。她強調,未來基礎設施的核心,不在於 GPU 的數量,而在於是否能將算力 “抽象化” 為可組合、可呼叫、可計費的服務。她舉例:訓練階段需要長時、高密度 GPU 叢集;推理階段則要求低延遲、分佈式呼叫;而一套成熟的算力平台,必須能在兩者之間靈活切換。這正是 a16z 投資策略中的核心邏輯:算力不再是固定資產,而是一種動態可交易的服務。(2)協議層崛起:算力的 “通用語言”a16z 在基礎設施投資中持續押注 “協議層(protocol layer)”。Li 解釋道:“協議的意義在於,使算力可遷移、可互換、可程式設計。”在 2025 年的播客中,她提到多家被投公司正在建構跨雲相容的算力協議,允許開發者通過統一 API 在不同雲之間呼叫 GPU 資源。這意味著,雲端運算的壟斷格局可能被 “協議抽象” 重新定義。對 a16z 來說,這並不是 “去中心化” 的理想主義,而是對資源調度效率的再設計。Jennifer Li 總結說:“算力的未來,不是更多晶片,而是更好的調度語言。”(3)延遲與地域:新的算力地理學a16z 另一位合夥人 Appenzeller 在隨後的 《Edge vs Cloud Tradeoffs in AI 》節目中補充指出:推理任務的增長,正在迫使算力分佈發生位移 —— 從集中式雲端運算,回到更接近使用者的邊緣節點。在他們看來,這種 “分佈式反向遷移”,並非對雲的替代,而是其自然演化:“延遲成本,正在成為新的地理壁壘。”這意味著,誰能在關鍵區域(如電力穩定、氣候冷、網路頻寬好的地區)部署低延遲算力節點,誰就掌握了下一代 AI 應用的流量入口。因此,在 a16z 的判斷框架裡:雲層的競爭,不是 AWS vs Azure 的延續,而是 “入口層 vs 延遲層” 的新戰場。(4)總結:雲層的權力邏輯綜合 a16z 在多期播客的判斷,可以提煉出他們對雲層的三層邏輯:在這一層意義上,Jennifer Li 的結論顯得尤其簡潔:“雲不再是工具,而是通道;誰控制了通道,誰就定義了速度。”03|資本層:a16z 如何看待 “算力的金融化”當晶片和雲都在加速集中,a16z 認為第三個權力中心正在浮現:資本本身。Martin Casado 在 7–9 月的兩期節目 《Monopolies vs Oligopolies in AI》 與 《The Economics of AI Infrastructure》 中提出,AI 的競爭邏輯已經從 “技術創新” 轉向 “資本密度競爭”。(1)技術紅利的終點:資本密度驅動期Casado 指出,AI 的邊際創新效率正在下降:訓練集規模逼近上限、演算法創新趨緩,而模型迭代的速度卻越來越快。他給出的關鍵數字是:“訓練一個 GPT-5 等級模型的成本,在 50 億至 100 億美元之間。”這意味著,AI 不再是工程師之間的賽跑,而是資本預算之間的比拚。Casado 把這一階段稱為 “資本密度驅動期(capital-intensive phase)”:創新上限,由能否獲得電力與現金流共同決定。(2)算力資產化:GPU 的金融化處理程序在 《The Economics of AI Infrastructure》 節目中,Casado 提出了一個核心概念:“Compute as an asset.”他認為,GPU 已經具備了傳統生產要素的三重屬性:可折舊(有壽命周期);可出租(推理租賃市場成熟);可抵押(資本市場開始建立 GPU 抵押信用線)。換句話說,算力已經成為一種可計價、可交易的資產類別。a16z 的另一位合夥人 Chris Dixon 曾用更直白的比喻說:“Compute is the new oil field of AI.”他們認為,這一趨勢意味著:AI 不僅在 “消費算力”,而是在 “建設資產”。(3)寡頭格局的形成:資本的幾何效應Casado 進一步指出,算力市場不會 “回歸均衡”。原因有三:資本門檻極高(硬體投資與資料中心支出形成自然壁壘);模型迭代依賴網路效應(規模優勢強化領先者的地位);資本集中度與效率正相關(更多融資意味著更快實驗與部署)。因此,AI 產業正進入他稱之為 “功能性寡頭(functional oligopoly)” 的階段。這不是反競爭,而是資本密度的自然後果。“在訓練成本呈指數上升的世界裡,贏家必須是資本充沛的玩家。”——Martin Casado,a16z Podcast,2025 年 8 月(4)為什麼 a16z 仍投早期公司看似矛盾的是:a16z 一邊承認寡頭格局,一邊仍在積極投資早期 AI 基礎設施公司。Casado 在節目中解釋,這並非兩難,而是雙層下注邏輯:他稱這種模式為 “Anti-Oligopoly Efficiency Dividend”——即使無法挑戰寡頭,也能在效率紅利中捕捉收益。(5)長期預測:算力市場將類比能源市場Casado 在結尾提出一個極具象徵性的比喻:“AI 計算的終局,會像能源市場。能源巨頭掌控供應,衍生市場提供流動性。”a16z 的長期假設是:算力將成為新的能源資產;協議層將成為新的交易系統;資本將決定創新的速度極限。這三點,構成了他們對未來 5–10 年 AI 基礎設施秩序的核心預測。結語|算力秩序的終極問題在 a16z 看來,AI 的競爭已經從演算法層滑向物理層、從技術紅利走向資本密度。這場遷移的核心,不是 “創新” 消失,而是創新的物理邊界被重新定義。他們提出的三層結構 ——晶片層:製造權;雲層:分配權;資本層:定價權;構成了 AI 世界新的權力分佈圖。模型仍然重要,但模型的命運,取決於它能否買到足夠的電力、時間與現金流。當技術的上限被物理與金融雙重約束,矽谷正在重新學習一個古老的問題:在一個能源決定速度的世界裡,創新的真正稀缺是什麼?—— a16z 給出的答案,或許是:自由分配算力的權力。 (複利貓的慢思考)
GPU警鐘敲響,AI過熱了?
在OpenAI和輝達等聯手搞動GPU和整個晶片市場之後,一個警鐘悄然敲響。周二, 知名媒體The Information 在一篇報導對該公司購買數十億 Nvidia 晶片並作為雲提供商出租給 OpenAI 等客戶的計畫提出了質疑,隨後該公司股價下跌 3%。報導稱,甲骨文最近轉型為最重要的雲端運算和人工智慧公司之一,但可能會面臨盈利挑戰,因為輝達晶片價格昂貴,而且其人工智慧晶片租賃定價激進。根據報告援引內部檔案稱,截至8月的三個月裡,甲骨文旗下輝達雲業務的銷售額為9億美元,毛利率為14%。這遠低於甲骨文約70%的整體毛利率。甲骨文今年9月表示,其積壓的雲合同(稱為剩餘履約義務)在一年內增長了359%。該公司預測,2030年雲基礎設施收入將達到1440億美元,高於2025年的100多億美元。然而,這些預測收入的大部分來自 Oracle在星際之門項目中所扮演的角色,該項目中,這家企業供應商正與 OpenAI 合作,開設五個裝有 Nvidia 人工智慧晶片的大型資料中心。縱觀整個AI市場,這其實是OpenAI一系列動作下的結果OpenAI挑起的AI基礎設施爭奪戰據金融時報最新報導,OpenAI 今年已簽署了約 1 兆美元的合同,用於運行其人工智慧模型的計算能力。這些承諾使其收入相形見絀,並引發了對其資金來源的質疑。今年 1 月,OpenAI 與軟銀、甲骨文等公司啟動了一項名為“星際之門”的計畫,承諾為 OpenAI 在美國基礎設施建設上投資高達 5000 億美元。目前尚不清楚輝達和 AMD 的交易將如何融入“星際之門”計畫。這家 ChatGPT 製造商尚未透露是直接購買晶片還是通過其雲端運算合作夥伴購買,預計將租賃部分輝達晶片。OpenAI 已從其供應商處獲得了巨額財務激勵,以換取其晶片採購的回報。Nvidia 計畫在未來十年向 OpenAI 投資 1000 億美元,OpenAI 可以用這筆資金購買 Nvidia 的晶片,用於其 AI 資料中心。AMD 將向 OpenAI 提供認股權證,使其能夠以每股 1 美分的價格收購 OpenAI 最多 10% 的股份,具體取決於他們的項目是否達到特定目標,其中包括一些與 AMD 股價掛鉤的目標。據 OpenAI 高管估計,按目前的價格計算,每部署 1 千兆瓦的人工智慧計算能力的成本約為 500 億美元,總成本約為 1 兆美元。這些交易將一些全球最大的科技集團與 OpenAI 的能力緊密聯絡在一起,OpenAI 有能力發展成為一家盈利企業,並能夠償還其日益沉重的財務負擔。但DA Davidson 分析師 Gil Luria 表示:“OpenAI 沒有能力做出任何這些承諾”,他同時並補充該公司今年可能虧損約 100 億美元。“矽谷‘假裝成功,直到成功’的理念部分在於讓人們參與其中。現在,許多大公司在 OpenAI 上投入了大量資金,”他補充道。OpenAI 在基礎設施、晶片和人才方面投入了大量資金,遠沒有達到實現這些宏偉計畫所需的資金。這些交易還涉及這家全球最有價值的初創公司與其合作夥伴之間的循環安排,以及大多數情況下尚未達成一致的複雜融資條款。彭博社在一篇相似的報導中也指出,兩周前,輝達公司同意向OpenAI投資高達1000億美元,以幫助這家領先的人工智慧初創公司建設一個規模龐大、足以為一座大城市供電的資料中心。OpenAI則承諾在這些資料中心部署數百萬塊輝達晶片。這一安排因其“循環”性質而迅速受到批評。本周,OpenAI再接再厲,達成了一項類似的協議。這家ChatGPT的開發商周一與輝達的競爭對手AMD公司簽署了合作協議,將部署價值數百億美元的AMD晶片。作為合作的一部分,OpenAI有望成為AMD的最大股東之一。據報導, AMD 已與 OpenAI 達成合作夥伴關係,ChatGPT製造商將在多代晶片中部署 6 GW 的 AMD 圖形處理單元 (GPU)。 這筆交易對 OpenAI 來說是一個重大決定,OpenAI 幾乎完全依賴 Nvidia晶片來訓練 ChatGPT 及其其他 AI 產品背後的模型。Nvidia 佔據了人工智慧加速器市場的主導地位,市場份額估計為 80% 至 95%,當供應緊張或價格上漲時,客戶幾乎沒有其他選擇。現在,Instinct 系列在資料中心直接與 Nvidia 的 H100 和 H200 晶片競爭,這些處理器在資料中心訓練大型語言模型 (LLM) 並運行推理工作負載。此次合作的財務利益相當可觀——正如AMD執行副總裁、首席財務官兼財務主管 Jean Hu所說,此次合作“預計將為 AMD 帶來數百億美元的收入,同時加速 OpenAI 的 AI 基礎設施建設”。 她補充說,該協議“為 AMD 和 OpenAI 創造了重要的戰略一致性和股東價值,預計將大大增加 AMD 的非 GAAP 每股收益”。對於 AMD 來說,獲得 OpenAI 作為客戶是其多年來試圖打破 Nvidia 對 AI 晶片市場的控制的證明。從Meta到xAI,都在搶GPU除了OpenAI以外,其他雲供應商也都在加入到了這個瘋狂的AI基礎設施浪潮。從相關報導可以看到,META 和 CoreWeave 已簽署了一份價值 140 億美元的協議,利用後者的GPU算力為 Facebook 母公司提供計算能力。 ORACLE也正在和Meta 就一項價值約 200 億美元的多年期雲端運算協議進行談判,這凸顯了這家社交媒體巨頭致力於更快獲得計算能力的決心。八月底,有消息指出,Meta 與Google簽署了價值 100 億美元的雲端運算協議。根據協議,Meta 將使用Google雲的伺服器、儲存、網路和其他服務。此前,Meta 首席執行官馬克·祖克柏 (Mark Zuckerberg) 曾在 7 月份表示,公司將斥資數千億美元建設幾個大型人工智慧資料中心。在最新的財報電話會議上,該公司預測 2025 年的資本支出將提升到 660 億至 720 億美元。當中,Meta 將部分資金投向出版商、晶片初創公司和雲服務提供商,並與之達成協議——這是一項龐大行動的一部分。與此同時,數十億美元的資金正湧入輝達的 GPU、定製晶片以及類似能源公用事業的資料中心,旨在確保人工智慧經濟的各個領域都不受限制。值得一提的是,Meta 的高管表示,他們預計到 2028 年將在人工智慧基礎設施上花費 6000 億美元 ,包括 大型資料中心。另一家巨頭微軟也是GPU的大買家。科技諮詢公司 Omdia 的分析師估計,微軟在去年購買了 48.5 萬塊輝達的“Hopper”晶片。這使得微軟遠遠領先於輝達的第二大美國客戶 Meta(購買了 22.4 萬塊 Hopper 晶片),以及其雲端運算競爭對手亞馬遜和Google。但這遠遠滿足不了微軟的需求。據知情人士在本月初透露,微軟與 NeoCloud 公司 Nebius Group NV 達成的協議將為微軟內部團隊提供計算能力,用於開發大型語言模型和消費者 AI 助手。這項價值高達 194 億美元的協議公佈後,Nebius 股價應聲上漲,但公告並未透露具體細節。知情人士表示,作為協議的一部分,微軟將獲得輝達公司超過 10 萬塊最新的 GB300 晶片的使用權。雲供應商通常營運著自己的資料中心,但微軟卻難以提供足夠的計算能力。租用 NeoClouds 的伺服器可以加快速度,因為他們已經解決了包括獲取足夠的電力和晶片在內的後勤挑戰。“我們在人工智慧領域處於非常激烈的爭奪戰模式,”微軟雲業務負責人 Scott Guthrie 表示。“我們已經決定,我們不想在容量方面受到限制。”Elon Musk旗下的xAI也已然成為了AI基礎設施市場的另一個爭奪者。其中,孟菲斯是馬斯克斥巨資進軍人工智慧戰爭的前線。他的人工智慧公司 xAI 已經在這座布拉夫城建造了一座大型資料中心,並稱之為世界上最大的超級電腦。這座名為“Colossus”的設施擁有超過 20 萬塊輝達晶片,並為人工智慧聊天機器人 Grok 提供技術支援。現在,馬斯克即將完成第二座設施,這座設施規模將更大,他稱之為“Colossus 2”。一些人工智慧和資料中心專家表示,完成Colossus 2將耗資數百億美元。僅輝達晶片一項就耗資巨大:一位熟悉孟菲斯項目財務狀況的人士表示,馬斯克需要至少花費180億美元來購買大約30萬塊晶片才能完成孟菲斯項目。馬斯克在7月份表示,Colossus 2將總共擁有55萬塊晶片,並曾暗示最終可能擁有100萬個處理單元。此前報導指出,馬斯克還在探索一種無需直接購買、而是通過與外部合作夥伴達成的複雜融資協議租賃的方式來囤積價值120億美元的晶片。再加上其他雲廠商,尤其是中國廠商的搶奪,對於AI算力和GPU的需求,正在瘋狂增長。根據《商業內幕》對財務報表的分析,今年,我們統計的五大能源使用者中的四家,亞馬遜、Meta、Microsoft 和Google,估計可以在資本支出上花費 3200 億美元,主要用於人工智慧基礎設施。這超過了芬蘭的 GDP,略低於埃克森美孚 2024 年的總收入。另一場網際網路泡沫正在上演?此前從未有過如此巨額的資金被如此迅速地投入到一項儘管潛力巨大,但其盈利能力在很大程度上仍未經證實的技術上。而這些投資通常可以追溯到兩家領先的公司:輝達和OpenAI。近期兩大巨頭之間發生的一系列交易和合作,加劇了人們的擔憂:日益複雜且相互關聯的商業交易網路正在人為地支撐著價值數兆美元的人工智慧熱潮。幾乎每個經濟領域都面臨風險,人工智慧基礎設施的炒作和建設波及了各個市場,從債務、股票到房地產和能源。晨星公司分析師布萊恩·科萊洛在談到輝達對OpenAI的投資時表示:“如果一年後我們經歷了人工智慧泡沫並最終破裂,這筆交易可能是早期的蛛絲馬跡之一。如果情況惡化,循環關係可能會發揮作用。”這種迅速吹起的泡泡,讓人想起了四分之一個世紀前的“網際網路泡沫”。當時,公司們爭先恐後地為新興網際網路奠定支柱時,出現了類似的模式。在截至 2001 年的五年裡,WorldCom和Global Crossing等公司花費了數百億美元鋪設光纜和安裝其他網路功能,但第二年,網際網路泡沫破滅導致為建設提供資金的貸方索要資金,結果倒閉了。根據Businessinsider引述布魯金斯學會(Brookings Institution)的分析報告顯示,領導光纖建設的公司的股東損失了2兆美元的價值,而50萬名工人失去了工作。雖然光纜最終被投入使用,主要是由於 Netflix 開創的串流媒體視訊革命,但許多鋪設它的公司並沒有看到它。就像早期的光纜和鐵路一樣,資料中心的建設和 GPU 的購買都是由華爾街資助的。當然如上所述,矽谷巨頭本身也越來越多地為繁榮提供資金。這進一步引發了擔憂。“我們都見證了這種行為的某些方面,”JonesTrading首席市場策略師邁克·奧羅克(Mike O'Rourke)上個月在一份報告中寫道。“網際網路泡沫的教訓幾乎已被遺忘,但它的影響將永存,”他寫道,並指出供應商融資是朗訊倒閉的“關鍵”——朗訊曾是全球最大的電信裝置公司,如今卻像輝達一樣,被譽為新興科技經濟中的“鐵鍬”公司。(朗訊在2002年經濟衰退期間險些破產,並於2006年被出售給法國競爭對手阿爾卡特。)摩根士丹利分析師周一在一份報告中表示:“我們看到了一些重要的區別。”其中最主要的是:大型科技公司的財務狀況比網際網路時代許多過度膨脹的股票要強得多。“我認為這是全球有史以來最大、最危險的泡沫,”宏觀戰略合夥公司(MacroStrategy Partnership)的朱利安·加蘭(Julien Garran)在周五一份頗為悲觀的報告中寫道。他估計,由人工智慧引發的“美國資本錯配”比網際網路泡沫嚴重17倍,比2008年的房地產泡沫嚴重4倍。但拋開循環融資及其盈利能力的討論,我們更應該關注的是這些投資的核心產品:由大型語言模型驅動的生成式人工智慧(LLM)。而這正是許多其他投資者、分析師和學者們高呼“皇帝沒穿衣服”的原因。“我想說,這種想法可能太狹隘了,”周一,當被問及對大規模人工智慧投資可能超前發展的擔憂時,AMD CEO蘇姿丰在雅虎財經上表示。“你必須認真考慮這項技術的力量能為世界帶來什麼。”蘇姿丰表示,公司“正在以正確的速度進行投資,因為我們希望加速發展……這是一個當公司和合作夥伴採取大膽行動時就會獲得回報的地方。”展望未來,蘇姿丰表示,人工智慧熱潮仍處於初期階段。“我堅信,這是一個十年超級周期的開端,”她補充道,人工智慧改變金融、醫療保健和研究等各行各業的潛力才剛剛開始顯現。她說:“我們相信,只要正確使用人工智慧計算,就能更快地解決疾病問題,更快地研發新藥,更好地診斷早期患者的問題,從而為人們的生活帶來改變。”寫在最後由於文章裡的“泡沫說”是一個假設,那就意味著其在未來並不會出現,這也引發了另一個猜想,OpenAI和AMD的交易,Microsoft對AMD和輝達的觀點,會否撼動當前的輝達格局?如上所述,輝達佔領了接近九成的訓練晶片市場。據FactSet 估計,人工智慧處理器目前每年為資料中心創造超過 1460 億美元的收入,預計未來 12 個月的年銷售額將達到 2260 億美元。相比之下,AMD 的資料中心業務目前的年銷售額略高於 140 億美元。首席執行官蘇姿丰在周一上午的電話會議上表示,一旦首批晶片在明年下半年開始部署,OpenAI 的交易將為該部門帶來“數十億美元的年收入”。她還指出,未來幾年該業務的收入可能“遠超 1000 億美元”。這將是一筆可觀的收入,但也表明 AMD 要想縮小與輝達在人工智慧系統市場的領先優勢,還有很長的路要走。就AMD而言,在追趕競爭對手的競爭中,AMD現在面臨著更大的風險。這筆交易從AMD預計將於明年下半年開始出貨的MI450晶片開始。AMD宣稱,這些晶片的性能完全可以與輝達計畫同期推出的Vera Rubin晶片相媲美。這將是一個巨大的飛躍。根據輝達在3月份的GTC大會上公佈的規格,首批Rubin系列晶片的計算性能將是輝達目前銷售的最強大的Blackwell晶片的3.3倍。MI450 也代表著 AMD 首次嘗試所謂的機架式系統,該系統將多個 GPU 晶片和其他元件組合在一起,有效地形成一台可裝入現有資料中心機架的 AI 超級電腦。這類系統的複雜性非常高;就連輝達去年在量產首批基於 Blackwell 的機架時也遇到了一些困難。但AMD在追趕輝達的競爭中,仍需實現一個雄心勃勃且快速推進的目標,同時還要兼顧其他業務,例如個人電腦和視訊遊戲等增長前景黯淡的市場。對於OpenAI和AMD的交易來說,還有一個關注點,那就是博通是否會最大利空。因為據之前報導,OpenAI正在與博通打造ASIC。專家此前曾猜測,AVGO 將成為僅次於 Nvidia 的第二大 AI 晶片供應商——尤其是在有報導稱 OpenAI 已下達 100 億美元定製 ASIC 訂單之後。對此,各位讀者是怎麼看? (半導體行業觀察)
牙膏踩爆!RTX 6090可能會有2.9萬個CUDA核心 但還得漲價
NVIDIA前兩天發佈了Rubin CPX,這是一款針對AI推理而生的GPU,沒用昂貴的HBM,而是給了128GB GDDR7視訊記憶體。這款CPX顯示卡對遊戲玩家而言也不是沒意義的,因為它很可能是未來的RTX 6090顯示卡基礎,網友High Yield稱CPX顯示卡沒有像其他AI專用卡那樣閹割了光柵單元,而是保留了下來。考慮到NVIDIA在復用GPU上刀法精妙,這意味著CPX所用的GPU核心未來也是Rubin家族遊戲卡的核心,即便規格不完全一樣,但也會非常相似。具體來說的,RTX 6090顯示卡所用的核心可能是GR202,SM單元數量從當前的170組提升到224組,CUDA核心來到了28672個,將近2.9萬核心了,也是史無前例的。這將使其FP32性能從RTX 5090的104.77TFLOPS提升到143.36TFLOPS,大約提升30%以上,這還沒考慮到架構上的提升。視訊記憶體規格方面可能變化不大,畢竟RTX 5090已經做到了32GB 512bit,NVIDIA也不太可能良心到一下子給64GB視訊記憶體,不過受益於GDDR7頻率提升,頻寬從1.8TB/s提升到1.92TB/s,聊勝於無吧。以上是對RTX 6090顯示卡的推測,個人覺得算是挺靠譜的,但是最終如何還得看NVIDIA在那裡下刀,整體性能提升30%也符合這兩年來的發展軌跡。不過伴隨著RTX 6090規格的提升,下代顯示卡又來一波漲價也是可以預期的,畢竟Rubin會使用台積電3nm工藝,比當前RTX 5090的4N(本質還是5nm改進)工藝貴不少,再加上其他改進,性能與價格漲幅估計也是正相關的。奇怪的是,RTX 5090/5080 FE公版開始消失了。NVIDIA Founders Edition是很多玩家心目中的信仰所在,但公版卡起的是一個帶頭作用,理論上不應該和AIC廠商搶生意,AMD的公版卡就幾乎不怎麼賣,NVIDIA這邊的公版卡壽命已經夠長了。最近在歐美市場,RTX 5090、RTX 5080的公版卡開始悄無聲息地消失,NVIDIA官網紛紛下架了,美國、法國、德國、英國等主要國家均是如此。比如在德國,NVIDIA官網上已經看不到RTX 5090 FE,而在英國和美國,RTX 5090、RTX 5080 FE都被移除了,最高只有RTX 5070。目前還不清楚這是臨時調整,抑或NVIDIA已經停產。NVIDIA德國的一位發言人在接受採訪時只是說,不清楚。NVIDIA中國官網上,RTX 5090 FE自然是沒有的,RTX 5080 FE倒是依然在列,可以跳轉到京東、天貓旗艦店,而價格一直堅持8299元不動搖。英國德國法國美國另外,SK海力士官方宣佈,全球第一家完成了新一代HBM4記憶體的研發,並且已經做好了大規模量產的準備。SK海力士HBM4記憶體的I/O介面位寬為2048-bit,每個針腳頻寬10Gbps,因此單獨一顆的頻寬就可高達驚人的2.5TB/s。這已經超過了JEDEC標準規範中規定的8Gbps,SK海力士宣稱在AI裝置中部署後可帶來最多69%的性能提升。SK海力士還使用了該公司自研的MR-MUF封裝技術,1bnm工藝也就是第五代10nm級。至於satck堆疊層數、單顆容量,SK海力士暫未披露,預計最高12堆疊。另外,三星也在積極推進HBM4,希望能和SK海力士搶一杯羹。HBM4記憶體對於下一代AI基礎設施至關重要,NVIDIA、AMD、Intel都離不開它。其中,NVIDIA Rubin預計搭載288GB HBM4,AMD Instinct MI400系列更是最高做到恐怖的432GB,頻寬19.6TB/s。除了遊戲卡市場,AMD還在AI顯示卡市場追趕NVIDIA的步伐,這個領域要比遊戲市場更難,甚至很難靠性價比優勢賣出銷量。AMD近期多位高管的表態都在強調2026年的MI450系列AI顯示卡將會給AMD帶來重磅收入,而且性能等方面全面超越對手產品。但是今年的AI市場上,AMD主打的MI350系列可能就沒那麼受歡迎了,HSBC匯豐銀行日前發佈的報告中,將AMD的目標價從200美元下調到了185美元。下調的原因就是MI355顯示卡的均價從25000美元降至23000美元,約合人民幣16.4萬元。該系列顯示卡是今年初才發佈的,3nm工藝,CDNA4架構,其中MI350X適用於風冷,MI355X適用於液冷,兩者的規格差不多,都是288GB HBM3e視訊記憶體,8TB/s頻寬,後者的性能更高一些。MI355X的FP64性能可達78.6TFLOPS,FP16、FP8及FP4性能則是5、10.1、20.1PFLOPS。這樣規格的顯示卡平均售價只要16萬元出頭,這是什麼概念呢?NVIDIA基於RTX 4090改進的國內特供顯示卡H20,也就96GB HBM3記憶體,之前國內售價都超過了20萬元,被哄搶的時候甚至更高。在AMD PPT中性能比B200還要強的MI350系列顯示卡,還要得打價格戰,這也能說明NVIDIA在AI市場護城河有多深,不單是AMD硬體性能領先就能比的。不過匯豐也在報告中表示,儘管下調了目標股價,但AMD在AI市場上的前景還是不錯的,明年預期收入也只是從151億調至139億美元,仍比預期高20%,華爾街低估了AMD的AI業務。包括微軟、甲骨文、Meta在內的雲服務廠商也在加強與AMD的合作,測試他們的MI400系列機櫃解決方案,這是AMD明年在AI市場翻身的殺手鐧級產品。 (硬體世界)
「一頁紙」講透產業趨勢之:Rubin CPX
這是一個非常「有錢景」的方向,我會借助 AlphaEngine 的幫助,幫你跨越產業趨勢研究的資訊鴻溝,每天挖掘一個財富密碼。今天的主角是:Rubin CPX,AI產業變革下一個核心驅動力。點選下方▶️按鈕收聽👇👇(1)Rubin CPX:AI產業進入“長上下文時代”的里程碑輝達近日發佈了一款專為長上下文場景設計的GPU——Rubin CPX。這款晶片旨在顯著提升AI推理效率,尤其適用於程式設計、視訊生成等需要處理超長上下文窗口的應用領域。Rubin CPX計畫於2026年底正式上市,市場定位是專為處理百萬級token長上下文AI推理而設計的關鍵基礎設施,旨在將AI算力正式推向Exascale(百億億次)時代。該產品的市場吸引力已得到初步驗證,包括Cursor(AI程式設計)、Runway(視訊生成)及Magic(AI程式設計)在內的多家前沿AI企業已率先採用該技術。Rubin CPX的推出可視為推動AI產業進入“長上下文時代”的里程碑事件,其核心價值在於通過架構創新為AI推理的規模化部署掃清了經濟性與效率障礙,為長上下文AI應用的商業化落地提供了高性價比的基礎設施。基於Rubin CPX的顛覆性設計,我們預見AI產業鏈將迎來深刻變革,一個全新的AI應用紀元正拉開序幕。1)上游供應鏈將迎來結構性增長:能夠滿足Rubin CPX嚴苛技術要求的供應商將獲得顯著優勢。例如,在PCB領域,對40層以上、採用M9級材料的高階伺服器板及HDI技術的需求將激增,為具備相關技術儲備的頭部廠商帶來確定性訂單。2)下游AI應用範式將被重塑:百萬級token的處理能力將徹底改變AI應用形態,AI編碼助手將從簡單的程式碼補全工具進化為能夠理解和重構整個複雜軟體項目的“AI架構師”,而視訊生成、藥物研發和企業知識庫問答等領域也將因上下文長度的突破而開啟新的可能性。(2)Rubin CPX的核心技術創新:解耦推理Rubin CPX的核心創新在於其獨特的解耦推理(Decoupled Inference)技術,該技術首次將大語言模型的推理流程從物理上分解為兩個獨立的階段:上下文處理(Prefill/Context)和生成(Decode/Generation)。傳統架構在單一硬體上執行這兩個特性迥異的任務,導致資源錯配與效率瓶頸。解耦架構則為每個階段匹配專用硬體:1)上下文處理階段:此階段計算密集(Compute-Intensive),需要大規模平行處理能力來消化海量輸入。Rubin CPX專為此設計,採用“胖計算、瘦頻寬”的理念,使用GDDR7來最大化算力利用率。2)生成階段:此階段頻寬密集(Bandwidth-Intensive),每個Token的生成都極度依賴記憶體訪問速度。該任務由標準的、配備高頻寬記憶體(HBM)的Rubin GPU(如R200)承擔,確保低延遲輸出。通過這種專用化分工,解耦推理架構實現了對計算和記憶體資源的精準調配,從根本上解決了傳統同構架構的效率天花板問題。Rubin CPX的解耦推理架構在處理流程、硬體瓶頸和記憶體策略上,與以GB300為代表的傳統同構架構形成了鮮明對比,其專用化設計帶來了革命性優勢。*註:由FinGPT Agent作表,原表請登錄AlphaEngine(3)Rubin CPX的關鍵性能參數Rubin CPX作為NVIDIA首款專為海量上下文AI推理設計的CUDA GPU,其單晶片及其組成的Vera Rubin NVL144 CPX平台在算力、記憶體、功耗及成本效益上均實現了對現有架構的顛覆性突破。以下是其核心技術規格與上一代旗艦GB300 NVL72的量化對比分析:*註:由FinGPT Agent作表,原表請登錄AlphaEngine從經濟效益的角度來看,Rubin CPX相比上一代架構,將帶來以下幾點變化:性能與成本的極致最佳化:Rubin CPX通過採用單片式設計,成功規避了當前先進封裝領域面臨的CoWoS產能瓶頸,這不僅保障了其在2026年的規模化量產能力,更帶來了顯著的成本優勢。其生產成本僅為同期旗艦訓練晶片R200的25%,卻能實現其60%的計算能力。同時,選用成本較HBM低50%以上的GDDR7視訊記憶體,進一步強化了其在推理市場的經濟性。平台級性能的指數級躍升:Vera Rubin NVL144 CPX平台通過異構協同,將AI性能推向了前所未有的8 EFLOPS(NVFP4精度),相較於上一代GB300 NVL72系統實現了7.5倍的性能飛躍。特別是在大模型推理的關鍵瓶頸——注意力機制處理上,其速度提升了3倍,這意味著處理百萬token級長上下文的效率和可行性得到了根本性改善。卓越的投資回報:基於其顛覆性的性能和成本結構,Rubin CPX展現出極高的經濟效益。據測算,在規模化營運下,其投資回報率(ROI)可高達30至50倍。具體而言,每1億美元的資本投入,預計可產生高達50億美元的token服務收益,這為資料中心和雲服務商提供了極具吸引力的TCO(總擁有成本)模型,預示著其將快速滲透至長上下文推理市場。(4)Rubin CPX對AI全產業鏈的深遠影響Rubin CPX的推出對AI產業鏈帶來了全方位的技術革新,催生了大量投資機遇,這裡我從“資料中心與液冷”、“PCB及原材料”、“AI應用”這三個角度展開。1)資料中心與液冷:Rubin CPX正強力推動伺服器架構向高密度、模組化的分解式設計(Disaggregated Design)演進,重塑AI計算基礎設施。其核心體現於Vera Rubin NVL144 CPX平台,該平台在單機架內實現了144個 Rubin CPX、144個Rubin GPU和36個Vera CPU的超高密度整合,樹立了行業算力密度的新標竿。這種分解式架構通過硬體專用化,將推理流程中計算密集的上下文處理(Prefill)與記憶體頻寬密集的生成(Decoding)階段分離,分別由CPX和標準Rubin GPU高效執行,實現了計算資源的精準匹配與利用率最大化。與此同時,Rubin CPX單晶片高達800W的功耗對資料中心的散熱與電源系統構成了嚴峻挑戰,傳統風冷方案已無法滿足散熱需求,這使得先進液冷技術(如直接液體冷卻DLC)的規模化普及成為必然趨勢,以確保系統穩定運行並最佳化能源效率(PUE)。巨大的單機架功耗需求也倒逼電源管理系統向更高效率和更高功率密度演進。這不僅涉及伺服器內部的電源架構,也涵蓋了從機架配電單元(PDU)到整個資料中心供電鏈路的全面升級,以支援未來AI叢集的龐大能源消耗。2)PCB及上游原材料:Rubin CPX技術規格的躍升正驅動上游關鍵材料需求的確定性放量。為滿足PCIe Gen 6等高速訊號傳輸的完整性要求,M9等級的超低損耗覆銅板材料已成為剛性需求。產業鏈向上游追溯,為實現超低損耗目標,石英布、 HVLP(極低輪廓)銅箔等高端材料的應用將從利基市場走向規模化普及。此外,承載Rubin CPX晶片本身的PCB預計將採用HDI(高密度互連)技術,進一步提升了PCB的設計複雜度和製造門檻,並帶來純粹的增量市場。這一趨勢已在頭部廠商的資本支出計畫中得到印證。以臻鼎為代表的PCB龍頭廠商規劃在2025-2026年投入的資本支出中,高達50%將明確用於高 階AI伺服器PCB的產能擴張,為即將到來的材料需求激增提前佈局。3)下游AI應用Rubin CPX將對AI應用帶來深遠的影響。首先,超長上下文將成為“標配”。128 GB GDDR7 + 30 PFLOPS NVFP4 的專用算力,讓單卡即可一次性載入 >1 M token 的程式碼或 1 小時視訊,無需再靠分片、滑動窗口等“折中”方案,直接把“整庫級”程式碼理解、長視訊連貫生成推向實用。其次,推理成本驟降,催生新商業模式。與旗艦 GB300 NVL72 相比,同樣長上下文任務性能最高提升 6.5 倍,而硬體成本更低(GDDR7 替代昂貴 HBM)。根據輝達官方測算,1 億美元新裝置可帶來 50 億美元 token 收益,ROI 達 30–50 倍,為 SaaS 平台按“百萬 token 幾分錢”收費提供了利潤空間。再次,“整庫級”AI 應用將成為主流。比如在Coding領域,Cursor、Magic等已計畫把整倉程式碼塞進模型,實現跨檔案重構、庫級問答,程式設計助手從“補全”升級為“架構師”。在視訊領域,Runway 等可在單卡完成 60 min 1080p 視訊生成,無需分段,保證情節、角色一致性。在科研/法律/金融等領域,百萬級 token 的論文、判例、財報一次性載入,多步推理即可在分鐘級完成,長文深度問答、自動研報進入可商用階段。一輪新的AI技術革命,正在滾滾而來。 (Alpha Engineer)
算力怪獸!NVIDIA Rubin CPX及液冷伺服器發佈!
9月10日輝達又放AI計算大招,推出專為長上下文推理和視頻生成應用設計的新型專用GPU——NVIDIA Rubin CPX。Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。從液冷視角來看,NVL144CPX平台整合的Rubin晶片數量更多,單伺服器整合8塊Rubin晶片,對冷板和UQD的需求將會成倍增長,同時對於高功率的CDU需求也會上升。輝達首席財務官科萊特·克雷斯 (Collette Cress) 表示,公司代號為 Rubin 的下一代資料中心級 GPU 和代號為 Vera 的 CPU 已完成流片並進入“晶圓廠”生產階段,這意味著它們的晶片目前由台積電 (TSMC) 生產。該公告表明,輝達面向 AI 的下一代資料中心平台有望於 2026 年推出。科萊特·克雷斯 (Collette Kress) 在公司與財務分析師和投資者的財報電話會議上表示:“Rubin 平台的晶片已投入生產。Vera CPU、Rubin GPU、CX9 Super NIC、NVLink 144 縱向擴展交換機、Spectrum X 橫向擴展和橫向擴展交換機,以及(用於共封裝光學器件的)矽光子處理器。Rubin 平台仍按計畫於明年實現量產。”該晶圓廠擁有 Rubin NVL144 機架規模平台的所有晶片,表明它們已經通過了重要的流片階段,Nvidia 目前正在實驗室中等待它們,以驗證它們是否符合其性能、功耗、成本和其他目標。 (零氪1+1)
輝達深夜突放大招,全新GPU為長上下文推理而生
效率最高可達現有旗艦機架的7.5倍。輝達於9月9日正式發佈了一款專為處理海量上下文而打造的新型GPU——NVIDIA Rubin CPX,旨在“以前所未有的速度和效率,賦能百萬級Token的軟體編碼、生成式視訊等複雜AI任務。”這款專用處理器將與NVIDIA Vera CPU及下一代Rubin GPU協同工作,共同構成全新的NVIDIA Vera Rubin NVL144 CPX整合平台。該平台在單個機櫃內即可提供高達8 exaflops的AI算力,性能是當前NVIDIA GB300 NVL72系統的7.5倍,並配備100TB高速記憶體和每秒1.7 PB的記憶體頻寬,為AI推理設定了全新基準。NVIDIA創始人兼首席執行官黃仁勳在發佈會上表示:“Vera Rubin平台將標誌著AI計算前沿的又一次飛躍。正如RTX徹底改變了圖形和物理AI,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,在這種場景下,模型可以一次性對數百萬token的知識進行推理。”為解決推理瓶頸而生:分解式推理架構與專用加速輝達表示,推理已成為人工智慧複雜性的新前沿。現代模型正演變為能夠進行多步推理、擁有持久記憶體和長上下文的智能體系統,使其能夠處理軟體開發、視訊生成和深度研究等領域的複雜任務。這些工作負載對基礎設施提出了前所未有的要求,在計算、記憶體和網路方面引入了新的挑戰,需要我們從根本上重新思考如何擴展和最佳化推理。在這些挑戰中,為特定類別的工作負載處理海量上下文變得日益關鍵。例如,在軟體開發中,AI系統必須對整個程式碼庫進行推理,維護跨檔案的依賴關係,並理解程式碼倉庫等級的結構——這正將編碼助手從自動補全工具轉變為智能協作者。同樣,長視訊和研究應用要求在數百萬token中保持持續的連貫性和記憶。這些需求正在挑戰當前基礎設施所能支援的極限。輝達認為,AI推理主要分為兩個階段:上下文階段(Context Phase)和生成階段(Generation Phase)。前者是計算密集型,需要高吞吐量處理海量輸入資料;後者是記憶體頻寬密集型,依賴高速資料傳輸逐個生成token。為最佳化效率,NVIDIA採用了“分解式推理”架構,將兩個階段交由最適合的硬體獨立處理。而NVIDIA Rubin CPX正是為加速計算密集的“上下文階段”而設計的專用解決方案。它採用高成本效益的單片式晶片設計,提供高達30 petaflops的NVFP4精度算力,配備128GB GDDR7記憶體,並將注意力(attention)功能速度提升至GB300 NVL72的三倍。此外,它還在單晶片上整合了視訊編解碼器和長上下文推理處理功能,極大地提升了視訊搜尋、高畫質視訊生成等應用的性能。NVIDIA指出,通過這種專用硬體,企業能夠以前所未有的規模創造價值,預計每投入1億美元資本,即可帶來高達50億美元的token收入。行業領導者積極擁抱,軟體生態全面支援新平台已獲得行業創新者的廣泛關注。AI程式碼編輯器開發商Cursor表示,Rubin CPX將帶來“閃電般的程式碼生成速度”,改變軟體開發模式。生成式AI公司Runway認為,新平台是“性能上的一次重大飛躍”,將幫助創作者在視訊工作中獲得前所未有的速度與真實感。致力於軟體工程自動化的AI研究公司Magic也指出,Rubin CPX能極大地加速其處理億級token上下文模型的計算工作負載。Rubin CPX將得到NVIDIA AI技術堆疊的全面支援,包括可高效擴展AI推理的NVIDIA Dynamo平台、NVIDIA Nemotron多模態模型系列以及包含NIM微服務的NVIDIA AI Enterprise企業級軟體平台。NVIDIA Rubin CPX平台預計將於2026年底正式上市。GB300 NVL72系統基準最新測試結果公佈在發佈未來架構的同時,NVIDIA於9月9日公佈的最新MLPerf Inference v5.1行業基準測試結果中,再次彰顯了其在當前AI推理領域的領導地位。本輪測試中,NVIDIA首次提交了基於全新Blackwell Ultra架構(通過GB300 NVL72系統)的成績,並立即刷新了所有新增基準測試的性能記錄,包括Llama 3.1 405B和Whisper等。尤其是在處理高達6710億參數的混合專家模型DeepSeek-R1時,Blackwell Ultra的單GPU性能達到了上一代Hopper架構的約5倍,實現了巨大的性能飛躍。這一成就得益於NVIDIA的全端最佳化能力,包括:廣泛應用NVFP4四位浮點格式進行加速、通過TensorRT-LLM等軟體庫實現先進的模型和KV快取量化,以及為複雜模型開發的全新平行技術。 (半導體產業縱橫)